查看原文
其他

ChatGPT背后:一个天才、百亿融资和1亿日活|全球独角兽

沈筱 王与桐 36氪Pro 2023-02-15

为什么不是Google, DeepMind or someone else?


文 | 沈筱编辑 | 王与桐封面来源 | 视觉中国
此刻,ChatGPT的火热程度已经无需多言。
11月30日上线,上线一周获得百万注册用户,成为史上最快到百万用户的产品;
1月23日,微软确认了对ChatGPT母公司OpenAI的新一轮数十亿美元投资;
2月4日,ChatGPT版搜索引擎曾悄然上线,但几分钟又后迅速下线;
2月6日,谷歌预告其智能对话机器人Brad即将上线;
然而今天,北京时间2月8日,微软紧急推出由OpenAI提供技术支持的最新版Bing(中文名“必应”)搜索引擎和Edge浏览器。
火从产品本身,烧到了各个领域,从硅谷点燃了全球。从Google指数上看,ChatGPT在全球的热度指数激增;从创投圈来看,2023年开年以来,赛道内初创公司受投资者持续追捧。1月,有消息称前OpenAI员工创办的Anthropic即将获得3亿美元投资,而这一投资者在本月被证实是谷歌;前谷歌员工创办的Character.AI也在当月称已与多个投资方就本轮融资进行讨论;在中国的农历年后,每一个投资人都开始寻找中国的ChatGPT。
毋庸置疑,背后最大赢家是ChatGPT的母公司OpenAI,以及“再生父母”微软。而二者的关系也可以追溯到更早。
一个问题浮出水面:为什么会是ChatGPT?为什么是OpenAI?
毕竟,志在实现通用人工智能目标的公司可不止OpenAI一家,ChatGPT也并不是近年来唯一一个掀起AI热潮的对话机器人。2016年,微软在Twitter上发布了Tay,2022年8月,Meta推出了BlenderBot 3,但均由于聊天对话存在偏见、种族歧视、反犹语言等问题而匆匆下架。谷歌也早在2021年5月就公布了LaMDA,但迟迟未作为产品发布。

本文,36氪试图回答一些问题:ChatGPT何以免去AI对话固有的道德、法律非议?为什么OpenAI能够成为破局者?手握海量数据和大量计算资源的科技巨头如谷歌、Meta败阵而归,AIGC赛道创业公司不胜枚举,OpenAI为何能够拔得头筹?微软持续多次豪掷百亿,野心到底是什么?

烧钱背后的商业天才

钱和所有AI技术的关系都是必要不充分的:钱不一定能砸出AI突破性进展,但是没钱一定做不出来。

这条对OpenAI一样适用。对AI研发企业而言,无论是NLP模型的开发和训练,以及后续AI服务提供所需担负的算力成本和运营成本,还是需要向顶尖科研人员支付高昂的薪酬。

AI实现路径条条不同,OpenAI又选择了一条更烧钱的技术路径——通过增加数据量、提高算力来提升模型性能。仅2022年,OpenAI就花费了约5.44亿美元,而收入仅为3600 万美元。

这样的“账”显然不是一般创业公司所负担得了。但好在,从创立那天开始,OpenAI就不缺钱。

2015年OpenAI 成立之初,与创始团队背景同样瞩目的是众星云集的投资者名单和高达10亿美元的启动资金,这其中包括Elon Musk 、Peter Thiel 和PayPal校友、LinkedIn联合创始人Reid Hoffman 等多位硅谷重量级人物的资金支持。2016年,Y Combinator又追加了12万美元的种子前轮投资。

相比之下,Google 2014年收购DeepMind仅花费了4亿美元。

OpenAI 管理层并不满足于此。为满足呈指数级增长的计算资源需求,这些资金或许远远不够:以GPT-3为例,2020年,大型语言模型GPT-3的发布使OpenAI在AIGC领域初露头角。聊天机器人ChatGPT正是在此模型基础上构建的。相较于2019年2月发布的GPT-2,GPT-3的模型能力得到了显著提升,易用性、安全性有了明显改进,在文案写作和总结、翻译、对话等任务中的表现都更加优异。也正因此,GPT-3成为了OpenAI首个开放商用测试的语言模型。GPT-3和GPT-2的最大区别在于模型规模更大——GPT-2拥有15亿参数,GPT-3则拥有1750亿参数,模型训练使用的数据量高达0.4万亿token。然而,和模型规模、训练数据量一样增长的,是GPT-3的模型训练成本。有数据显示,GPT-3的单次训练成本高达460万美元。

OpenAI疯狂码算力的烧钱速度的确超乎想象。根据2020年发表于MIT Technology Review上的一篇针对OpenAI的采访报道,OpenAI联合创始人Greg Brockman称,公司早在2017年就意识到保持非营利组织在财务上是不可持续的。

为满足日益增长的资金需求,2019年3月,成立四年后的OpenAI 设立OpenAI LP,从非盈利公司转型为有限盈利公司,并紧接着在7月宣布了微软的10亿美元注资。此外,OpenAI 同年还获得了来自Khosla Ventures、Reid Hoffman Foundation、Matthew Brown Companies的投资。

在2023年微软确认追加数十亿美元投资前,OpenAI 已完成六次融资。GPT-3、DALL·E 2图像生成器、ChatGPT这三个关键产出正是在OpenAI完成组织变革和一系列吸金动作后陆续推出的。

看到这里,或许有人会疑惑,既然AI烧钱人尽皆知,为什么连谷歌收购DeepMind都只花了4亿,而OpenAI却能以“十亿”为单位不停拿钱?

种种夸张吸金动作背后,答案指向一个天才——Sam Altman。

2019年3月,Sam Altman接管OpenAI LP,改变了OpenAI的融资策略,进一步给了OpenAI烧钱的底气。Sam Altman的独特经历赋予了他敏锐的商业嗅觉和出色的融资能力,使其成为了接管OpenAI LP的不二人选。

尽管Sam Altman也是技术出身,但他并不单纯关注技术进步,而是在注重效率和产出的同时,更加看中能够通过技术进步实现的价值创造。

Altman的天才属性自小就有体现。从8岁起就开始学习编程,在预科毕业进入斯坦福大学学习计算机科学两年后,Altman和同学辍学创办了Loopt——一款用于共享实时位置的应用程序。然而,影响其后续职业走向的并非Loopt本身,而是作为Loopt投资方之一的Y Combinator。

依靠从Loopt挖到的第一桶金,Altman转而投身于风投事业,于2012年创办了Hydrazine Capital,将筹得的大部分资金投向了Y Combinator投资的公司。

2014年,年仅28岁的Altman接任Paul Graham的Y Combinator总裁一职,并于次年登榜《福布斯》30岁以下风险投资人TOP 30榜单。在任期间,Altman致力于为理工科创业公司提供机遇,关注能够在实现技术突破后获得巨大潜在回报的深科技领域,包括核聚变、量子计算。

据他所说,通用人工智能,也是其中之一。Sam Altman认为,AI将引领新一代技术革命,而通用人工智能是需要让所有人都能享受到技术革命带来的红利。在2022年9月Greymatter的一集播客中, Greylock合伙人、领英创始人Reid Hoffman与Altman围绕下一代AI技术展开了探讨。Altman称“AI是一个可以孵化出无数工具,推动各行各业前进的基础平台。”

也就是说,Altman认为在底层人工智能技术的加持下,将会产生更多的,基于特定行业的具体应用场景,帮助行业实现技术变革。这也意味着,最后可以获得最大收益的是能够率先搭建技术领先的基础AI模型,并先发制人,以开放API的形式,吸引各行业企业基于基础模型开发具体AI应用的企业。

凭借自身对AI行业的独特理解,以及从业多年对科技创投圈兴奋点的把控,Sam Altman显然向硅谷完美讲述了他所认为的OpenAI的高估值故事,并在组织变革的关键时点成功将微软拉入局中,为这一估值故事背书。

事实上,在Sam Altman成为OpenAI LP掌舵人后,OpenAI 的发展策略——先发制人以获取先动优势,也正是参照Altman对行业未来的设想进行的。

一方面,正如Sam Altman所说,OpenAI的战略选择是“先做最有信心能成功的事情,然后分出10%的资源进行成功确定性更低的探索工作”。通过迅速推出市场可感知的AI技术进步,并展现出商业化前景的产品:AI图像生成工具DALL·E 2、AI聊天机器人ChatGPT,OpenAI在声量上已经秒杀一众科技巨头。在DALL·E 2正式开放注册后,用户数高达 150 多万,这一数字在一个月后翻了一倍。而ChatGPT的月活用户数更是在上线后两个月就突破了一亿。ChatGPT的病毒式增长也为OpenAI提供了有助于模型优化的大量用户数据。

另一方面,尽管围绕OpenAI是否仍然“Open”的争论仍未停息,但是早在推出GPT-3的时候,OpenAI就开启了小规模的商业测试,并逐步开放API接口。据路透社报道,迄今为止,已有多家企业,甚至竞争对手在OpenAI上构建应用程序,其中一些企业已借此实现了用户数量和营业收入的增长。文案生成平台Jasper就是其中之一。根据TechCrunch报道,据Jasper CEO Dave Rogenmoser 称,截至2022年10月,Jasper用户数量已超7万,在推出后一年内就创造了约4500万美元的收入,并预计将会在2022 年底实现收入翻番。

无疑,Sam Altman在商业上的极强天赋,为OpenAI赢得了时间、资源和钱,而时间、资源、钱,又逐渐量变积累,在ChatGPT推出之时爆发。

微软成为最大赢家前,也曾陪OpenAI走过漫漫长夜

1月,微软确认三度投资OpenAI,金额数十亿美元;2月8日,微软整合ChatGPT产品至其搜索引擎产品Bing当中。

不少人认为,现在微软已经成为ChatGPT背后的最大赢家:

从投资角度,在收回投资之前,微软将获得OpenAI 75%的利润分成,之后微软将持有OpenAI 49%的股份,OpenAI一旦开始盈利,在返还First close partners(FCP)后,75%的盈利将回报给微软;

从商业竞争角度,此前多年谷歌一直占有全球90%搜索引擎的份额,而微软此次和Bing联动,或将改变互联网商业格局。 

而当我们把视线收回到2019年,微软第一次给OpenAI 10亿美元时,或许并没有想到自己将成为最大赢家。

微软和OpenAI的前世今生起源已久。迄今为止,微软已经完成了分别于2019年、2021年对OpenAI承诺的两笔投资。今年1月宣布的第三笔数十亿美元投资意味着微软和OpenAI的进一步深度绑定。

如今看来,资金投入仅是微软和OpenAI合作的第一层;微软押注OpenAI也绝非谋求未来利润回报这么简单。

一方面,OpenAI亟需算力投入和商业化背书。为拉动微软入局,Sam Altman做了不少努力。在接管OpenAI LP后,Altman多次飞往西雅图与微软CEO Satya Nadella进行交谈。

另一方面,微软2016年推出Tay聊天机器人受挫后,在AI技术商业化应用方面日渐式微,在基础研究层面也尚无具备广泛影响力的产出,亟需寻求技术突破,以重获AI竞争力。

2019年微软首次注资OpenAI后,双方开始在微软的Azure云计算服务上合作开发人工智能超级计算技术。同时,OpenAI逐渐将云计算服务从谷歌云迁移到Azure。有报道指出,OpenAI每年在微软云服务上模型训练花费约为7000万美元,构成了微软向OpenAI投资的重要部分。

有了微软云的加持,OpenAI码算力的能力和底气日渐增长,第一个突破性成果GPT-3随之于2020年问世。同年,微软买断了GPT-3基础技术的独家许可,并获得了技术集成的优先授权,将GPT-3用于Office、搜索引擎Bing和设计应用程序Microsoft design等产品中,以优化现有工具,改进产品功能。

2021年微软再次投资,双方合作关系正式进入第二阶段,从合作探索期进入蜜月期。一方面,作为OpenAI的独家云提供商,在Azure中集中部署OpenAI开发的GPT、DALLE、Codex等各类工具。这也形成了OpenAI最早的收入来源——通过Azure向企业提供付费API和AI工具。

与此同时,拥有OpenAI新技术商业化授权,微软开始将OpenAI工具与自有产品进行深度集成,并推出相应产品。例如,2021年6月基于Codex,微软联合OpenAI、GitHub 推出了AI代码补全工具GitHub Copilot。该产品于次年6月正式上线,以月付费10 美元或年付费100美元的形式提供服务。

2022年,微软开始通过Edge浏览器和Bing搜索引擎在部分国家和地区提供基于AI图像生成工具DALLE开发的Image creator新功能。同年10月,微软宣布将推出视觉设计工具Microsoft designer。

而今年公布的微软对OpenAI的第三次出手,彻底拉开了AI军备竞赛的帷幕,也标志着OpenAI新技术商业化进入了新的阶段。

从现有结果来看,通过指数级增长的计算资源投入,来实现技术持续改进,以量变推动质变,这一以快制胜的路径是OpenAI在这一阶段作出的正确选择。

对微软而言,不管OpenAI未来是否会在达成承诺的投资回报后拿回经营主动权,至少目前看来,微软已经靠“借力打力”在AI领域扳回一城。  

先做、砸钱、大厂资源一样不落,Google为什么步步被压?
诚如上文所言,在OpenAI造梦途中,和Sam Altman的掌舵同样不可或缺的,自然是以“首选商业合作伙伴”身份入局的微软。
也是因此,全世界关注者都无法不将“OpenAI x 微软”与“DeepMind x 谷歌”这两对“CP”做对比,而双方也更是如此,不少人推测,商业军备战已经拉开序幕。
在OpenAI与微软的“步步紧逼”之下,Google早已一改ChatGPT刚发布时事不关己的态度:2022年底,从发布“红色警报”,召开AI战略会议,到指导研发团队的工作重心向AI产品开发和发布倾斜,再到被曝出已退出一线多年的两位创始人紧急回归参与战术制定,Google显然已经在战略层面上重视OpenAI和微软对公司核心业务和市场地位的威胁。
战略紧急调整,反映到行动上,更值得玩味:今年1月,被Google收购的DeepMind宣布ChatGPT竞品Sparrow内测版将于本年度上线。英国金融时报2月3日报道,Google已经向投资前OpenAI员工创办的初创企业Anthropic投资3亿美元;同时,在微软将推出内嵌ChatGPT的新版搜索引擎Bing这一消息满天飞的情况下,Google紧急宣布将于2月8日召开AI与搜索发布会。
此外,就在2月6日——发布会即将举行的两天前,Google CEO Sundar Pichai提前透露,基于LaMDA开发的AI对话服务Bard将和轻量版本的LaMDA一同发布。LaMDA是Google 2021年5月推出的,专攻对话生成的大型语言模型。此时,距离LaMDA的首次发布,已经过去了近两年。
LaMDA发布时间早于ChatGPT一年多,介于OpenAI 推出GPT-3和InstructGPT的时间点之间。InstructGPT是OpenAI 基于GPT-3微调得出的优化模型,在模型训练中加入了人类评价和反馈数据来实现强化学习,以产出更简洁易懂的自然语言文本。LaMDA能够调用的参数量与GPT-3旗鼓相当。
和ChatGPT一样,LaMDA可以为用户提出的问题提供更自然、更合理的回答。同时,相较于ChatGPT,LaMDA还具备实时调用外部知识源的能力,这一特征也将赋予Bard优于ChatGPT的时效性价值。由于ChatGPT模型训练未涵盖2021年之后的数据,其目前无法提供这样的基于实时信息的回答。
事实上,仔细梳理OpenAI和Google 在大型语言模型研发方面的成果线,不难发现,近年来双方一直呈现势均力敌的扭打态势。甚至在大型语言模型领域,Google才是那个更早一步有所作为的一方。

Google与OpenAI大型语言模型研发大事记

2017年6月,Google推出了能调用6500万参数的Transformer模型,并将模型首次用于理解人类语言,开创了自然语言处理的新篇章。OpenAI的自然语言模型GPT系列以及DeepMind推出的能够预测蛋白质3D结构的AlphaFold,都是在Transformer模型的基础上构建的。
如此看来,从技术、资金实力,以及研究团队层面来看,Google都并不逊于OpenAI。
既然如此,是什么延缓了Google开放LaMDA,推出AI聊天机器人的步伐,以至于陷入了OpenAI反客为主的被动境地?
究其原因,Google在研发和成果应用两个层面做出了与OpenAI截然不同的决策:赛马、创新 VS 小步快跑、专一。
造成这一决策差异的,是两家公司本身的特征,包括公司固有的组织形式和现有市场地位等。
在研发层面,尽管在2018年到2021年间,双方都注重通过增加模型规模来实现性能提升,但Google内部研发团队采用赛马制,也就是同时有多个进行类似研究的团队。因此,Google对Transformer模型变体的研究以及相关垂直领域工具的研发是多线并行的,即从不同方向进行探索。
这也使得虽然Google研究产出较多,创新性较高,采用的具体技术路线差异较大,但是缺乏聚焦,以至于一些研究成果仅仅停留在学术层面,而未能进行下一步应用。
OpenAI选择了小步快跑的专一路线,即OpenAI专注于在GPT系列上实现模型性能的迭代提升,以及基于GPT系列的垂直领域工具研发。OpenAI于2016年确立了两个主要目标:制造通用机器人和使用自然语言的聊天机器人。但是,从GPT-1发布之后,OpenAI逐渐将所有重心转向大型语言模型的研发上。有了研究聚焦,在一定程度上加速了研发和技术商业化进程。
在成果应用层面,创业公司的步子反而迈得会更大,与微软结盟后,OpenAI采取了更加激进的新技术商业化策略,进一步将大量精力投入到能够迅速实现商业化应用的新技术研发和新产品开发方面。这也是OpenAI员工出走的原因:在模型尚不完善的情况下,就急于进行商业化落地。
而有趣的是,部分Google员工出走的原因恰恰又是Google在新技术商业化方面过于保守。
保守的原因之一是风险规避,包括由于生成内容可能产生种族偏见、性别歧视等有害内容的道德风险,用于训练的数据可能涉及的版权、引用溯源等法律风险,以及由于生成内容包含虚假信息而损害用户对公司信任度的风险。
考虑到上述潜在风险,Google一直对AI聊天机器人、AI图像生成工具等产品及相关模型的开放持谨慎态度。背靠Google的DeepMind也是如此。以至于,LaMDA和Sparrow两个大型语言模型,以及Imagen、Parti、Muse这三个文本-图像生成模型迟迟未上线。
但光脚不怕穿鞋,一直以来都是如此。同样的风险OpenAI自然也会面临,但OpenAI的做法似乎表明其并不介意承担此类风险。当然,可能一部分原因是,OpenAI确实在一定程度上保留了技术开源的初心,但也需承认,相较于Google,缺钱烧的OpenAI更需要快速实现新技术商业化。
商业落地后的种种事实也表明,种族偏见、缺乏真实性等问题以及艺术工作者、教育机构的批判并不会妨碍OpenAI加速新技术商业化的决策。
2021年开始,OpenAI陆续推出了DALL-E、Codex、ChatGPT这一系列基于GPT-3新的垂直领域应用,并试图通过直接提供相应工具或授权微软将其集成于现有产品中的方式来赚取收入。
保守的第二个原因则更隐晦,对于核心业务和市场地位较为稳定的Google而言,需要更审慎地评估新技术商业化应用实际能够为公司创造的价值。除了涉及新技术商业化本身的成本收益权衡,Google还需要考量其可能对现有核心业务的影响,比如新产品的推出是否会蚕食搜索引擎市场,进而影响Google的主要收入来源——背靠搜索引擎的广告业务。因此,Google近年来主要将新技术用于现有产品的功能改进和优化。
事实证明,在瞬息万变的商业战场,没人会替你的保守买单。Google真正急眼的原因,是看到ChatGPT迅速吸引用户的能力——ChatGPT上线仅5天用户量就突破100万。截止今年一月底,ChatGPT月活用户已经突破1亿。这样的能力,在OpenAI决定向Google核心业务和市场地位发起挑战后,可能会对Google造成不可预料的负面影响。
这样一来,Google需要作出的权衡反而更加简单明了:相较于新技术商业化由于潜在风险、蚕食现有业务可能造成的经济损失,如果不这样做,是否将面临更大的,不可挽回的经济损失。
Google的战略回应已经说明,此刻,在它看来,将新技术商业化可能对其核心业务造成的不良影响,远不及OpenAI和微软具有挑衅意味的竞争行为可能对其造成的毁灭性打击。至于Google能否迎头赶上,以及一系列战略回应将对其核心业务、商业模式带来何种影响,还有待时间考证。

根据微软和Google争先召开发布会这一行为来看,我们或许将很快得到这些问题的答案。

新版Bing来了,商业化进展到哪?
过去几年的纠缠或紧或松,关系亦敌亦友,但现在,微软和谷歌都等不及了。
就在今日凌晨,抢先Google一步召开的记者上,微软正式宣布将推出新的由AI驱动的Bing搜索引擎主页。果然不出意料,微软CEO Satya Nadella 在邀请函中提到的“分享一些令人兴奋计划的部分进度”是指基于GPT更新的Bing。 
根据CNBC报道,该主页将附带有扩展聊天框,能够ChatGPT一样回答用户问题,不仅仅是事实问题,还能为用户定制旅行线路,提供旅行建议,估算旅行成本。该主页将和Edge浏览器在今日同时发布有限预览版。即对现阶段用户的搜索数量设置了一定限制。完整版有望在未来几周内向数百万人开放。此外,微软还计划推出移动版Bing。 
不难推测,有了类似ChatGPT聊天功能的加持,至少在短时间内新版Bing的访问量应该不会太低。
但是,至于微软如何以及能否借此增加用户粘性,以实现更高的搜索引擎市场份额还是一个未知数。一是由于ChatGPT尚不支持获取实时数据,因此回答缺乏时效性,新版的Bing应该也尚无此特征;二是由于搜索引擎作为一款常用工具,相比于功能的多样化,信息的准确度可能更加重要。这也是有观点认为ChatGPT对Google搜索引擎业务的影响并不大的主要原因。
另外,新功能的接入给微软带来的收益能否覆盖云计算成本的增加也值得推敲。这个问题的答案不仅关乎OpenAI的高估值故事是否能够站得住脚,也是OpenAI和微软能否真正引发搜索引擎革命的关键。
根据目前数据,OpenAI的商业化之路或许并不轻松。据Fortune报道,有消息称OpenAI 2022年收入仅约 3500 万美元,目前仍处于严重亏损状态,但OpenAI预计其将于2023年、2024 年分别实现2亿美元、10 亿美元营收。
近期OpenAI和微软一系列“加强绑定”或是OpenAI 对商业化的逐步尝试。
  • 1月,OpenAI开始围绕付费版本ChatGPT Professional开展市场测试,并于2月1日正式推出ChatGPT Plus,定价为月订阅费20美元。付费用户可以获得更快的响应速度,并优先尝试新功能。目前该服务仅限于美国本地用户使用,预计后续将面向其他国家和地区提供。
  • 微软也于2月1日发布了基于ChatGPT的高端版Teams消息服务,用以简化会议,包括自动生成会议记录、推荐任务,创建会议模版等。每月费用为10美元。
  • 2月4日,ChatGPT版搜索引擎悄然上线,但几分钟又后迅速下线。而就在今日凌晨(当地时间2月7日下午),微软在紧急召开的记者会上宣布和ChatGPT具有类似功能的新版Bing引擎将于当日上线。
但无论如何,微软已经先人一步。而靠着天才创始人、背靠微软、胆大心细的OpenAI,能否打破种种桎梏,变成下一个时代的“微软”,我们拭目以待。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存